Génération des prononciations de noms propres à l'aide des Champs Aléatoires Conditionnels (Pronunciation generation for proper names using Conditional Random Fields) [in French]

نویسندگان

  • Irina Illina
  • Dominique Fohr
  • Denis Jouvet
چکیده

Dans cet article, nous proposons une approche de conversion graphème-phonème pour les noms propres. L'approche repose sur une méthode probabiliste : les Champs Aléatoires Conditionnels (Conditional Random Fields, CRF). Les CRFs donnent une prévision à long terme, n'exigent pas l'indépendance des observations et permettent l'intégration de tags. Dans nos travaux antérieurs, l'approche de conversion graphème-phonème utilisant les CRFs a été proposée pour les mots communs et différents paramétrages des CRFs ont été étudiés. Dans cet article, nous étendons ce travail aux noms propres. Par ailleurs, nous proposons un algorithme pour la détection de l'origine des noms propres. Le système proposé est validé sur deux dictionnaires de prononciations. Notre approche se compare favorablement aux JMM (Joint-Multigram Model, système de l'état de l'art), et tire profit de la connaissance de la langue d'origine du nom propre.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Automatic Detection of Document Organizational Structure from Visual and Lexical Markers (Détection automatique de la structure organisationnelle de documents à partir de marqueurs visuels et lexicaux) [in French]

Résumé. La compréhension d’un texte s’opère à travers les niveaux d’information visuelle, logique et discursive, et leurs relations d’interdépendance. La majorité des travaux ayant étudié ces relations a été menée dans le cadre de la génération de textes, où les propriétés visuelles sont inférées à partir des éléments logiques et discursifs. Les travaux présentés ici adoptent une démarche inver...

متن کامل

Conditional Random Fields for XML Applications

xml tree labeling is the problem of classifying elements in xml documents. It is a fundamental task for applications like xml transformation, schema matching, and information extraction. In this paper we propose xcrfs, conditional random fields for xml tree labeling. Dealing with trees often raises complexity problems. We describe optimization methods by means of constraints and combination tec...

متن کامل

Extraction de propriétés de produits

RÉSUMÉ. Le travail présenté dans cet article vise à extraire automatiquement certaines caractéristiques de produits à partir de descriptions textuelles fournies par un site marchand. La constitution d’un corpus de référence annoté révèle certains problèmes, provenant à la fois des textes et des particularités de la tâche. Pour l’aborder, nous avons testé deux approches : une méthode d’extractio...

متن کامل

Automatic annotation of incomplete and scattered bibliographical references in Digital Humanities papers

In this paper, we deal with the problem of extracting and processing useful information from bibliographic references in Digital Humanities (DH) data. We present our ongoing project BILBO, supported by Google Grant for Digital Humanities that includes the constitution of proper reference corpora and construction of efficient annotation model using several appropriate machine learning techniques...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012